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摘要 : [目的 /意义 ] 基 于 内 容 的 过 滤 推 荐 中 ,针对 向 量 空间 模型 表示 文本 时 容易 造成 维度 灾难 的 问题 , 提 
出 利用 余 终 值 z 与 匹配 度 值 Sim 相 结 合 的 方法 对 原 有 模型 进行 改进 。[ 方 法 /过 程 ] 由 文献 资源 和 用 户 兴 趣 分 
别 第 选 出 权重 较 大 特征 词 的 词 向 量 , 进 而 由 公式 计算 余弦 值 T, 结 合 对 应 的 特征 词 权重 进一步 计算 出 匹配 度 值 
Sim ,将 其 作为 向 目标 用 户 推荐 文献 的 依据 ,并 利用 河北 工业 大 学 图 书馆 的 相关 数据 对 改进 模型 向量 空 间 模 型 
A LDA 主题 模型 进行 实验 ,最 后 利用 查 准 率 、 召 回 率 上 1 值 及 运行 时 间 等 评价 指标 对 3 种 模型 的 实验 结果 进行 
分 析 。[ 结果 /结论 ] 实验 结果 表明 所 提出 的 改进 模型 相 比较 于 实验 中 的 向 量 空 间 模型 与 LDA 主题 模型 具有 更 


高 的 应 用 价值 与 运行 效率 。 


D 关键 词 : 基于 内 容 推荐 匹配 度 值 Sim 推荐 模型 ”实证 分 析 


N 分 类 号 : G252 
i^ DOI:10. 13266/j. issn. 0252 — 3116. 2018.21. 014 


5 电子 文献 已 成 为 高 校 图 书馆 馆藏 的 重要 组 成 部 分 ， 
其 痊 种 类 多 日 数据 量 不 断 增 大 的 特点 ,用 户 在 利用 信息 
的 二 程 中 容易 出 现 信息 过 载 与 信息 迷航 的 现象 ,浪费 很 
多 时 间 和 精力 , 却 很 难 获得 自己 想 要 的 文献 "”。 随 着 
高 臣 科 研 用 户 研究 方向 的 多 元 化 ,逐渐 产生 了 个 性 化 的 
信号 需求 ,期 望 图 书馆 能 够 依据 自己 的 兴趣 爱好 ,得 到 
经 过 筛选 的 电子 文献 。 个 性 化 推荐 技术 以 用 户 浏览 收 
藏 S 帮 载 等 记录 为 基础 ,利用 数据 挖 气 技 术 提 取出 用 户 
的 受 趣 特征 ,基于 用 户 兴趣 特征 在 资源 库 中 寻找 目标 用 
户 感 兴趣 的 文献 ,来 完成 个 性 化 的 信息 推荐 各。 因此 ， 
针对 不 同 的 用 户 需求 ,提供 个 性 化 的 信息 服务 成 为 当下 
高 校 图 书馆 信息 服务 研究 的 重要 课题 。 


2 研究 现状 

个 性 化 推荐 服务 由 推荐 系统 来 实现 ,推荐 系统 一 
般 由 资源 ,用户 、 推 荐 算法 3 个 要 素 组 成 ,推荐 算法 是 
推荐 系统 的 核心 ”。 推 荐 系统 的 核心 推荐 算法 可 分 为 
协同 过 滤 推 荐 、 基 于 内 容 的 过 滤 推 荐 以 及 混合 推荐 。 


协同 过 滤 推 荐 需要 分 析 用 户 历史 评分 情况 ,为 目标 用 
户 寻 找 兴趣 相似 的 邻居 或 者 相似 的 资源 进行 推荐 ; 
基于 内 容 的 过 滤 推 荐 通过 分 析 用 户 感 兴趣 的 资源 和 资 
源 库 中 其 他 资源 的 相似 度 ,选择 相似 度 较 高 的 资源 为 
目标 用 户 进行 推荐 ;混合 推荐 主要 是 融合 以 上 两 
种 推荐 方法 为 目标 用 户 进行 推荐 ”。 协 同 过 滤 推 荐 算 
法 在 现实 生活 中 有 广泛 的 应 用 ,如 电子 商务 .电影 推荐 
等 ,但 它 最 大 的 缺点 是 需要 大 量 的 用 户 历史 评分 ,由 于 
高 校 图 书馆 电子 文献 没有 用 户 的 评分 以 及 评价 等 反馈 
言 息 ,所 以 该 算法 不 适 于 本 文 的 推荐 。 基 于 内 容 的 过 
滤 推 荐 算法 在 文本 领域 的 应 用 非常 广泛 ,考虑 到 电子 
文献 的 特点 ,本 文选 择 基于 内 容 的 过 滤 推 荐 算法 来 实 
现 高 校 图 书馆 电子 文献 的 推荐 。 

在 国内 的 研究 中 ,基于 内 容 的 过 滤 推 荐 算法 ,将 文 
本 资源 作为 主要 对 象 。 如 徐 勇 等 ”将 基于 内 容 的 过 滤 
推荐 算法 应 用 到 科技 文献 的 推荐 上 ,采用 向 量 空间 模 
型 来 描述 用 户 兴趣 特征 和 科技 文献 特征 ,比较 用 户 兴 
趣 特征 与 科技 文献 特征 的 相似 度 , 将 相似 度 较 高 的 科 
技 文献 推荐 给 用 户 。 昌 学 强 等 ”在 基于 内 容 的 过 滤 
推荐 基础 上 ,提出 了 一 种 结合 影评 内 容 相 似 度 和 长 短 
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期 兴趣 模型 的 方法 来 计算 电影 相似 度 , 以 此 来 对 用 户 
进行 推荐 。 安 悦 等 … 针 对 微 博信 息 过 载 的 问题 ,将 基 
于 内 容 的 过 滤 推 荐 算法 应 用 到 微 话题 的 推荐 上 ,通过 


BE ,提高 推荐 模型 的 计算 效率 ; 另 一 方面 ,从 用 户 角度 
看 ,筛选 出 权重 较 大 的 特征 词 可 以 更 准确 的 表达 用 户 
的 兴趣 ,避免 由 于 用 户 兴趣 的 泛 化 导致 推荐 范围 过 于 


计算 微 话题 与 用 户 兴趣 的 相似 度 , 为 微 博 用 户 推荐 感 
兴趣 的 微 话题 。 丁 德 红 等 ”使 用 基于 内 容 的 过 滤 推 
荐 ,构建 用 户 兴趣 模型 和 文档 特征 模型 ,通过 计算 模型 
的 相似 度 , 将 相似 度 较 高 的 文档 推荐 给 用 户 。 雷 凯 
等 利用 基于 内 容 的 过 滤 推 荐 并 融入 实时 交通 路 况 ， 
为 用 户 推荐 路 线 信息 。 

区 别 于 国内 学 者 以 文本 资源 作为 推荐 对 象 的 情 
况 , 国 外 一 些 学 者 将 基于 内 容 过 滤 的 推荐 算法 应 用 在 
其 它 领 域 上 。 如 工 . Liu 等 ”提出 一 种 基于 语义 内 容 的 
推荐 方法 ,将 基于 内 容 的 推荐 与 上 下 文 分 析 结合 起 来 ， 
在 缺少 用 户 反馈 的 条 件 下 为 用 户 提供 软件 推荐 服务 。 
Y cDeldjoo 等 利用 基于 内 容 的 过 滤 推 荐 算法 ,结合 
视频 视觉 特征 自动 提取 技术 ,为 用 户 进行 视频 推荐 ,并 
用 诸如 电影 流派 等 显 性 特征 进行 推荐 的 现 有 基于 


内 戎 的 推荐 系统 进行 比较 ,证 明 前 者 有 更 高 的 推荐 准 


宽泛 ,而 失去 个 性 化 推荐 的 意义 。 最 后 通过 实证 分 析 
来 验证 改进 模型 的 有 效 性 ,以 期 能 够 为 高 校 图 书馆 个 
性 化 推荐 服务 提供 新 的 思路 。 


3 个 性 化 推荐 模型 的 构建 


在 以 往 基 于 内 容 的 过 滤 推 荐 中 ,使 用 向 量 空间 模 
型 来 表示 文献 资源 与 用 户 兴趣 , 即 利 用 提取 出 的 文献 
特征 词 及 其 权重 来 表示 文献 资源 特征 ,用 户 兴 趣 特征 
主要 是 以 兴趣 信息 提取 出 的 特征 词 及 其 权重 来 表示 ， 
最 后 计算 文献 资源 特征 与 用 户 兴 趣 特 征 的 相似 度 , 将 
相似 度 较 高 的 文献 推荐 给 目标 用 户 。 本 研究 在 构建 个 
性 化 推荐 模型 时 将 直接 利用 提取 出 的 特征 词 及 其 权 
重 、 训 练 出 的 特征 词 向 量 来 实现 用 户 兴 趣 与 文献 资源 
的 匹配 度 计算 ,首先 利用 公式 1 计算 余弦 值 r。 

lu, * vl 


Peu s (公式 1) 


HP u, 表示 文献 第 选 出 的 第 i 个 权重 较 大 的 特征 
T] Is] fit v; 表示 用 户 兴趣 筛选 出 的 第 j 个 权重 较 大 的 特 
征 词 向 量 , 其 中 1<i 和 P,1<j<Q,P、Q 分 别 为 文献 与 


基础 上 ,提出 了 一 种 基于 用 户 偏好 来 计算 不 同 乐曲 之 
闻 和 性 化 距离 测量 的 方法 ,为 用 户 进行 个 性 化 的 音乐 
推 着 服务 。 

-三 综 上 所 述 ,在 基于 内 容 的 过 滤 推 荐 中 ,广泛 采用 基 
手 辐 量 空间 模型 (Vector space model, VSM) 的 推荐 , 计 
算 特征 词 权重 常 用 方法 是 TF-IDF。 但 对 于 高 校 图 书 
馆 这 样 庞大 的 资源 库 来 说 ,如 果 将 电子 文献 表示 成 
VSM 的 形式 其 维度 将 会 非常 大 , 易 造成 维度 灾难 ,使 
得 推荐 系统 效率 低下 。 为 避免 维度 灾难 ,区 别 于 以 往 
将 文本 资源 和 用 户 兴趣 分 别 表示 成 空间 向 量 模型 的 方 
法 ,进而 计算 出 两 个 向 量 的 相似 度 为 用 户 进行 资源 扒 
荐 ,本 文 提 出 余弦 值 * 与 匹配 度 值 Sim 相 结合 的 方法 
对 基于 向 量 空间 模型 进行 推荐 的 方法 进行 改进 。 其 中 
"是 指 从 文献 资源 与 用 户 兴趣 中 第 选 出 的 权重 较 大 的 
和 寺 征 词 向 量 的 余弦 值 ,结合 对 应 的 特征 词 权 重 进一步 
计算 出 用 户 兴趣 与 文献 资源 的 匹配 度 值 Sim, 将 Sim 
值 较 高 的 文献 推荐 给 目标 用 户 。 相 比较 于 原 有 基于 向 
量 空间 模型 的 推荐 :一 方面 ,筛选 出 权重 较 大 者 作为 最 
终 的 特征 词 , 既 能 很 好 的 代表 文献 资源 特征 ,避免 文本 


日 户 兴趣 筛选 出 的 权重 较 大 的 特征 词 数量 。 
然后 利用 公式 2 计算 匹配 度 值 Sim。 


zET 


Q p; q;lu; * vjl 
iu vl 

(公式 2) 
其 中 ,p;\g; 分 别 表 示 从 文献 与 用 户 兴 趣 中 筛选 出 
的 权重 较 大 的 特征 词 权重 ,1<i<P,1<j<Q。 

个 性 化 推荐 模型 主要 有 3 个 模块 :文献 处 理 模块 、 
用 户 兴趣 处 理 模 块 .文献 推荐 依据 计算 模块 。 其 中 文 
献 处 理 模 块 是 用 于 文献 特征 提取 ;用 户 兴 趣 处 理 模 块 
是 用 于 用 户 兴 趣 特征 提取 ;文献 推荐 依据 计算 模块 用 
来 计算 文献 资源 与 用 户 兴 趣 的 匹配 度 值 Sim , 该 模块 
是 本 文 模型 改进 的 核心 部 分 , 见 图 1。 

由 图 1 可见, 个 性 化 推荐 模型 主要 内 容 包括 : 

(1) 数 据 预 处 理 。 对 搜集 的 用 户 阅读 记录 信息 和 
文献 进行 数据 清洗 文本 类 型 转换 等 ,使 其 符合 模型 对 
数据 的 要 求 ,以 便于 分 词 .特征 提取 及 词 向 量 训练 。 

(2) 分 词 。 分 词 通过 分 词 器 来 实现 ,分 词 器 提取 
关键 词 的 准确 性 对 提高 推荐 准确 率 有 很 大 的 影响 。 本 
研究 选择 目前 最 好 的 Python 类 中 文 分 词 器 jieba 分 词 ， 


Sim = Xi Dai p,'q;'r- your 之 


— 


向 量化 时 带 来 维度 灾难 的 问题 ,又 降低 了 计算 的 复杂 


用 目前 流行 的 Python 语言 进行 编码 , 文 持 繁 体 中 文 


Uo 


— 
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对 所 有 文献 进行 分 
词 ， 形 成 词 库 
〈 去 停 用 词 ) 


WSord2vec 训练 词 
库 ， 得 到 词 向 量 库 


筛选 出 权重 较 大 的 
前 P 个 特征 词 


08.00507v1 


请 秽 自 定义 词典 ,还 提供 了 精简 模式 全 模式 、 搜 索 模 
式 多 分 词 模式 满足 不 同 用 户 需 求 。 
CNUG)TFJDF。 利 用 TFIDF 算 法 对 用 户 兴 趣 信息 与 


用 户 阅 读 记 录 信 息 来 源 于 文献 


| 输出 了 个 特征 词 


户 阅 读 记 录 
信息 


数据 预 处 理 


EAN Ò que 


i 
输出 P 个 权重 Duy 


1 个 性 化 推荐 模型 


停 用 词 ,利用 TF-IDF 技术 计算 用 户 的 特征 词 权重 ,并 
筛选 权重 较 大 的 前 Q 个 特征 词 。 由 在 中 `@ ORTER 
的 情况 下 ,利用 第 选 出 的 P 了 与 Q 在 @@ 训 练 出 的 特征 词 


文献 进行 特征 提取 ,该 算法 主要 思想 是 :一 个 词 在 特定 
的 于 档 中 出 现 的 频率 越 高 ,在 所 有 文档 中 出 现 的 范围 

,说 明 该 词 在 区 分 文档 内 容 属 性 方面 的 能 力 越 强 ， 
Mee 的 权重 计算 公式 为 W = TF x IDE , 

C3(4) Word2vec。 利用 Word2vec 对 分 词 后 的 文献 库 
进行 词 向 量 训练 ,为 计算 特征 词 向 量 的 余弦 值 做 准备 。 
该 工具 提供 了 CBOW 和 Skip. gram 两 种 训练 模型 ”1， 
结合 hierarchy softmax 与 negative sampling 的 优化 技术 ， 
word2vec 可 以 高 效 的 将 词语 表达 成 向 量 。 

(5 ) 文 献 推 荐 依据 计算 模块 。 该 模块 是 改进 模型 
的 核心 内 容 , 余 弦 值 z 与 匹配 度 值 Sim 依据 公式 1 与 公 
式 2 得 出 ,对 Sim 值 进 行 归 一 化 处 理 后 ,将 Sim 值 较 大 
的 前 N 个 文献 推荐 给 目标 用 户 。 

个 性 化 推荐 模型 的 流程 顺序 为 :中 依次 遍历 文献 
库 中 的 每 篇 文献 ,对 其 进行 预 处 理 ,然后 分 词 .去 停 用 
词 ,利用 TF-IDF 技术 计算 每 篇 文献 的 特征 词 权重 ,最 
后 筛选 出 权重 较 大 的 前 了 个 特征 词 。@ 对 文献 库 中 的 
所 有 文献 进行 预 处 理 , 然 后 分 词 .去 停 用 词 形成 词 库 ， 
利用 Word2vec 技术 对 词 库 进行 训练 ,得 到 特征 词 向 量 
库 。@@ 对 用 户 阅 读 记 录 信 息 进行 预 处 理 , 然 后 分 词 ,去 
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向 量 库 中 寻找 对 应 的 特征 词 向 量 ,利用 公式 1 计算 出 
RIZE ro SRI SX 2 计算 出 文献 与 用 户 兴趣 的 匹 
配 度 值 Sim( 归 一 化 处 理 ) ,把 Sim 值 较 大 的 前 N 个 文 
献 推荐 给 目标 用 户 。 


4 实证 分 析 


为 了 验证 改进 模型 的 有 效 性 ,本 研究 使 用 河北 工 
业 大 学 图 书馆 的 相关 数据 ,计算 改进 模型 下 用 户 平均 
文献 推荐 准确 率 ,并 探索 所 提出 的 算法 中 了 与 Q 的 最 
优 取 值 。 最 后 在 相同 的 实验 环境 及 数据 条 件 下 ,对 改 
进 模 型 .向量 空间 模型 及 LDA 主题 模型 进行 实验 ,分 
Jr 3 种 推荐 模型 的 查 准 率 P、 召 回 率 RF1 值 及 运行 时 
间 等 评价 指标 。 
4.1 数据 来 源 

实验 选取 8 名 不 同 研 究 主题 用 户 阅 读 过 的 文献 作 
为 实验 数据 ,选取 研究 主题 时 遵循 两 个 原则 :中 研究 主 
题 的 完全 无 关 性 ;@) 研 究 主题 的 相似 性 ,研究 主题 涉及 
环境 保护 ,健康 医疗 、 建 筑 设计 、 数 学、 化 学 物理 .机 械 
工程 以 及 电气 工程 。 依 据 人 工分 类 将 文献 分 为 用 户 阅 
读 记 录 文 献 与 相关 文献 ,其 中 用 来 提取 用 户 兴 
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的 阅读 记录 文献 173 篇 ,相关 文献 240 篇 。 为 了 使 实 
验 更 加 符合 实际 情况 ,添加 其 他 研究 主题 的 干扰 文献 
82 篇 ,文献 数量 共计 495 篇 ,如 表 1 所 示 : 

表 1 实验 数据 一 览 


用 户 研究 主题 阅读 记录 文献 (篇 ) ”相关 文献 (篇 ) 
Userl 环境 保护 19 30 
User2 健康 医疗 20 30 
User3 建筑 设计 20 30 
User 数学 20 30 
User5 化 学 20 30 
User6 物理 19 30 
Usei7 机 械 工 程 15 30 
User8 电气 工程 20 30 
干扰 文献 其 他 0 82 
合计 - 173 322 
4. P 实验 过 程 


> >í 1) M A W Windows Mu db Python 


I 量 训练 。 
So sm. Word2 vec usse use 


c ei 
yt1 2 ds 。 其 中 size = 100 , window = 5 , min. count 
2 


ws 


CC 


4355sample = -]e-3,sg =0,hs 20, negative = 5,cbow 


nra - =1。 此 外 ,由 于 用 户 相 关 文 献 数量 的 最 大 值 为 
LA top. n 230, 

CN(3 ) 实 验 步 又 。 包 括 :@ 将 所 有 TXT 格式 的 文献 
ER C d 放 人 文件 
KA, Of Userl 的 TXT 格式 的 阅读 记录 文献 放 入 另 
ESFI B, OIII A 内 的 每 篇 文献 遍历 并 用 
jidai 独 分 词 ,得 到 每 篇 文献 语料库 a (t=1、 
EIN 495), 四 合并 语料库 oo oa am 形成 总 

语料库 D。@ 遍 历 语 料 库 aa, .ay 、… 
IDF 计算 语 料 a, iE i P 
个 特征 词 , 形 成 文献 :的 特征 词 库 忆 = (Fa Fao 
F) ,相应 的 权重 w, = (W, Wan ) 。@@ 使 用 gen- 
sim 中 的 word2vec 对 总 语料库 D 训练 词 向 量 , 形 成 词 
向 量 库 V。@ 提 取 Userl 阅读 记录 文献 中 的 特征 词 , 计 
算 每 个 特征 词 权 重 的 平均 值 ,并 筛选 平均 权重 较 大 的 
前 Q 个 特征 词 作为 Userl 兴趣 特征 词 , 记 为 FL, 相应 的 
权重 集合 记 为 WI。@@ 依 次 遍历 所 有 文档 ,计算 所 及 ， 
与 FI 组合 所 对 应 V 中 特征 词 向 量 的 余弦 值 , 即 依据 公 
式 1 计算 特征 词 向 量 的 余弦 值 。@ 四 依据 公式 2 计算 
Userl 与 每 篇 文献 的 匹配 度 值 sim。 四 将 阅读 记录 文 
HRM Sim 值 列表 中 剔除 ,并 将 剩余 文献 按 Sim 值 大 小 
排序 ,按照 公式 计算 Userl 的 推荐 准确 率 。@ 更 新 文 
LEJE B 中 的 阅读 记录 文献 ,分 别 导入 User2 、… , User8 


\、C495 ,使 用 TF- 


阅读 记录 文献 ,再 次 运行 上 述 过 程 。 

上 述 实验 步 又 中 P 与 Q 的 值 通过 下 面 的 实验 来 确 
定 。 首 先 令 P=5,Q 依次 取 5 10 15 .20.25 .30 .35 40, 
45 .50 ,得 到 如 图 2 所 示 的 8 名 用 户 的 平均 推荐 准确 
率 。 由 2 图 可 见 , 随 着 Q 值 的 不 断 增 大 ,平均 推荐 准确 
率 逐 渐 提 高 , 当 0 为 40,50 时 平均 推荐 准确 率 不 再 发 
生 明显 变化 ,因此 取 Q =40。 


80% 
70% 


el 
3 


5 10 15 20 25 30 35 40 45 50 
户 兴趣 特征 词 数量 (单位 ;个 ) 


图 2 P=5 时 平均 推荐 准确 率 变化 趋势 


当 Q =40 时 , 令 P 依 次 取 5 ,10,15 20 25 30 35 40, 
45 50 得 到 如 图 3 所 示 的 8 名 用 户 的 平均 推荐 准确 率 。 
随 着 P 值 的 不 断 增 大 ,平均 推荐 准确 率 逐 渐 提 高 , 当 P 
为 30 .40 50 时 平均 推荐 准确 率 基本 不 再 发 生变 化 ,因此 
取 P =30, 此 时 改进 模型 已 达到 最 优 的 推荐 准确 率 。 
人 
3096 
2096 


10% 
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平均 推荐 准确 率 
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图 3 Q =40 时 平均 推荐 准确 率 变化 趋势 


取 Q=40,P =30, 观 察 改进 后 模型 随 着 推荐 文献 
数量 从 30 至 70 每 次 增加 5 的 不 同情 况 下 的 查 准 率 P、 
召回 率 R Fl 值 及 运行 时 间 的 变化 情况 。 在 相同 的 实 
验 环境 与 数据 条 件 下 ,对 改进 前 的 基于 向 量 空 间 模型 
的 推荐 进行 实验 ,利用 TF-DF 文本 表示 方法 对 文本 数 
据 进 行 量化 ,将 文本 数据 以 权 值 向 量 的 形式 表示 出 来 ， 
即将 用 户 兴趣 与 文献 资源 分 别 表示 成 空间 向 量 模型 的 
形式 ,通过 计算 向 量 的 相似 度 为 目标 用 户 推荐 文献 。 
此 外 ,本 文 还 利用 相同 的 数据 对 基于 LDA 主题 模型 的 
推荐 进行 实验 ,利用 LDA 主题 模型 对 实验 数据 进行 训 
练 ,得 到 每 篇 文献 的 主题 分 布 概率 ,抽取 文献 在 主题 上 
的 概率 分 布 作为 特征 向 量 , 然 后 计算 文献 间 的 相似 度 ， 
以 此 为 用 户 进 行 推荐 。 

4 给 出 了 改进 模型 .向量 空间 模型 及 LDA 主题 
模型 推荐 的 查 准 率 P 的 变化 情况 。 由 图 4 可 以 看 出 ， 
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随 着 推荐 文献 数量 的 增加 ,3 种 推荐 模型 的 查 准 率 P 
都 在 下 降 , 当 推荐 文献 数量 高 于 45 时 , 查 准 率 并 无 明 


7 给 出 了 3 种 推荐 模型 随 着 推荐 文献 数量 从 30 
增加 到 70 每 次 增加 5 的 不 同情 况 下 的 运行 时 间 对 比 


显 差 异 。 在 实际 应 用 中 最 为 重要 的 是 推荐 的 排名 靠 前 
的 文献 数量 ,改进 模型 在 推荐 文献 数量 小 于 45 时 查 准 
率 有 明显 优势 ,所 以 本 研究 所 提出 的 改进 模型 与 实验 
中 的 向 量 空间 模型 与 LDA 主题 模型 相 比 具有 更 高 的 
应 用 价值 。 


一 和 一 LDA 主题 模型 


推荐 文献 数量 (单位: 篇 ) 

S 4 3 种 推荐 模型 的 查 准 率 P 随 推荐 文献 

S 数量 增加 的 变化 情况 

e 

LO 图 5 给 出 了 3 种 推荐 模型 随 着 推荐 文献 数量 从 30 
HERE 70 每 次 增加 5 的 不 同情 况 下 召回 率 的 变化 
情况 。 从 图 5 中 可 以 看 出 ,改进 模型 在 推荐 文献 数量 
JEB 45 时 召回 率 R 优 于 其 他 两 种 推荐 模型 。 


一 4 一 改进 模型 — 一 各 一 向 量 空间 模型 一 去 一 LDA 主题 模型 
e 1.00 
CN. 0.80 
^" "WB 060 
»Q 0.20 
a un 30 35 40 45 50 55 60 65 70 
c 推荐 文献 数量 ( 单位 : 篇 ) 
T 图 5 3 种 推荐 模型 的 召回 率 R 随 推 荐 文献 


数量 增加 的 变化 情况 


6 给 出 了 3 种 推荐 模型 随 着 推荐 文献 数量 从 30 
增加 到 70 每 次 增加 5 的 不 同情 况 下 的 FL 值 的 变化 情 
况 ,同样 由 图 6 可 以 看 出 当 推 荐 文献 数量 小 于 45 时 ， 
改进 模型 明显 优 于 其 他 两 种 模型 。 


一 4 一 改进 模型 


—H— 向 量 空间 模型 ” 一 一 LDA 主题 模型 
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推荐 文献 数量 ( 单位: 篇 ) 
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图 6 3 种 推荐 模型 的 Fl 值 随 推荐 文献 
数量 增加 的 变化 情况 
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图 ,改进 模型 的 平均 运行 时 间 为 6. 19 秒 ,向 量 空间 模 
型 的 平均 运行 时 间 为 11.45 秒 ,LDA 主题 模型 的 平均 
运行 时 间 为 7.12 秒 。 相 比较 于 向 量 空间 模型 的 推荐 ， 
改进 模型 的 的 运行 效率 提升 了 45.93% , HIF LDA 
主题 模型 的 7.12 秒 。 


国 改 进 模型 m 向 量 空间 模型 


mLDA 主题 模型 


行 时 间 (单位 : Rb) 


x 


35 40 45 50 55 60 65 70 
推荐 文献 数量 (单位: 篇 ) 


7 3 种 推荐 模型 运行 时 间 对 比 


实验 结果 表明 , 当 Q 为 40,P 为 30 时 ,改进 模型 的 
推荐 准确 率 达 到 最 优 。 改 进 模型 在 推荐 文献 数量 小 于 
45 时 ,其 查 准 率 召回 率 与 Fl 值 明 显 优 于 其 他 两 种 推荐 
模型 ,而 用 户 更 看 重 的 是 排名 靠 前 的 文献 ,因此 ,改进 模 
型 在 现实 中 具有 更 高 的 应 用 价值 。 另 外 在 模型 运行 时 
间 复 杂 度 方面 , 相 比较 于 改进 前 的 向 量 空间 模型 ,改进 
模型 的 运行 效率 提升 了 45.93% , 且 优 于 LDA 主题 模型 。 


针对 基于 向 量 空间 模型 的 推荐 中 在 表示 文本 时 维 
度 过 大 的 问题 ,本 研究 提出 利用 余 弱 值 z 与 匹配 度 值 
Sim 相 结合 的 方法 对 原 有 模型 进行 改进 ,结合 已 有 的 
TF-IDF ,word2vec 等 技术 构建 了 基于 内 容 过 滤 的 个 性 
化 推荐 模型 。 该 模型 通过 筛选 出 权重 较 大 的 特征 词 及 
特征 词 向 量 来 计算 r 与 Sim, 通 过 对 改进 模型 .向 量 空 
间 模 型 及 LDA 主题 模型 进行 的 实验 结果 表明 ,改进 模 
型 的 推荐 准确 率 较 好 运行 效率 高 ,在 现实 中 具有 更 高 
的 应 用 价值 。 未 来 可 将 改进 模型 应 用 到 更 大 的 数据 集 
上 ,提高 模型 的 稳定 性 和 运行 效率 ,本 文 的 研究 成 果 为 
高 校 图 书馆 个 性 化 推荐 服务 提供 了 新 的 思路 。 
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Abstract. [ Purpose/significance] In content-based filtering recommendation, the problem of dimensionality disas- 
ter is easily caused when the vector space model (VSM ) is used to represent text. This paper proposes a method that com- 
bines the cosine value r and the matching value Sim to improve the original model. [ Method/process | based on literature 
resources and user interests the word vectors of feature words with large weight were selected, and then the cosine value r 
is calculated by the formula, and the matching value Sim is further calculated based on the corresponding feature words 
weights as the basis for recommending literature to the target user. And it uses the data from the Hebei University of Tech- 
nology Library to conduct experiments on the improved model, vector space model and LDA topic model, and finally uses 
the evaluation index of precision rate, recall rate, F1 and running time to analysis the experimental results of the three 
models. [ Result/conclusion | The experimental results show that the improved model presented in this paper has higher 
application value and operation efficiency compared with the vector space model and LDA topic model. 


Keywords: content-based recommendation | matching value Sim | recommendation model empirical analysis 
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